The following pages and posts are tagged with
Title | Type | Excerpt |
---|---|---|
Born-Again Neural Networks | Page | 概要 モデル圧縮で用いられるKnowledge Distillation (KD)において,teacherとstudentに同一のモデルを使用するBorn-Again Networks (BANs)を提案. BANによって学習したstudentがteacherの性能を超えることをVisionおよびLanguageのタスクで実験的に確認した. BANの学習手順 BANの学習手順の概要図は以下の通り. Image Classificationのタスクを想定してBANの学習手順を見ていく. 学習データセットの画像・ラベルのペアを$(x, y) \in \mathcal{X} \times \mathcal{Y}$とすると,学習するモデルは$f(x): \mathcal{X} \rightarrow \mathcal{Y}$である. パラメータ$\theta_1$を持つネットワークを考えると,最適なパラメータ$\theta_1^{\ast}$は損失関数$\mathcal{L}$を最小化することで得られる. \begin{align} \theta_1^{\ast} = \argmin_{\theta_1} \mathcal{L} (y, f(x, \theta_1)). \end{align} $\theta^{\ast}$持つネットワークをteacherとして,次にパラメータ$\theta_2$を持つstudentを学習する際の損失関数を以下のように考える. \begin{align} \mathcal{L}(f(x, \argmin_{\theta_1} \mathcal{L} (y, f(x, \theta_1))), f(x, \theta_2)). \end{align} 更に,<a... |